首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Tyrant Lucifer

    Apache Seatunnel - 架构解析

    概述 Seatunnel 是一个非常易用,高性能、支持实时流式和离线批处理的海量数据处理产品,架构于Apache Spark 和 Apache Flink之上,开源项目地址:https://github.com /apache/incubator-seatunnel 版本演变 Seatunnel原名为Waterdrop,在更名之后正式孵化为Apache项目,同时对于两个名字也对应了不同的版本,Waterdrop 指1.x版本,Seatunnel指2.x版本,对于1.x和2.x有以下区别: 关键功能 1.x 2.x 支持spark yes yes 支持flink no yes 主要开发语言 scala java 主要构建工具 sbt maven 为什么我们需要Seatunnel Apache Spark和Apache Flink对于分布式数据处理和流式数据处理来说是一个伟大的进步,但较高的使用门槛让数据处理人员需要学习 spark和flink复杂的运行机制和api才能够使用的更加顺畅,为降低数据处理门槛,且让spark和flink变得更加易用,减少学习成本,加快分布式数据处理在生产环境的落地,Seatunnel应运而生

    6.2K30编辑于 2022-08-30
  • 来自专栏Apache SeaTunnel

    Apache SeaTunnel 社区年终盘点

    PMC带你解读SeaTunnel2.3.9版本功能特性(讲师:王海林ApacheSeaTunnelCommitter&PMCMember)某政务行业基于SeaTunnel探索数据集成平台的架构实践孟小鹏某政务公司大数据技术经理 SeaTunnel二次开发进阶:企业级复杂场景下的亿万级数据处理与智能容错机制(讲师:史德昇某网络安全公司高级大数据工程师)从架构原理到落地实践:ApacheSeaTunnel×Cloudberry数据集成全解读 ApacheSeaTunnel接入MCP,解锁模型上下文协议超能力(讲师:张海成ApacheSeaTunnelContributor)把数套数据传输通道一键“折叠”成SeaTunnel:同程工程师周晓晨的实战笔记 (讲师:周晓晨同程旅行数据通道负责人)从“分散”到“统一”,中控技术利用SeaTunnel构建高效数据采集框架,核心数据同步任务0故障运行! :基于SeaTunnel迁移数据到AmazonAuroraDSQLSeaTunnel社区「Demo方舟计划」第一期:MySQLCDC实时同步至PostgreSQL实战(讲师:马全才奥克斯数仓开发工程师)

    20110编辑于 2026-01-08
  • 来自专栏腾源会

    活动推荐|Apache SeaTunnel & Kyuubi 联合 Meetup

    2022 年 3 月 12 日(星期六), Apache SeaTunnel 和 Apache Kyuubi 两大新锐社区携手,邀请来自 eBay、T3 出行、oppo 等团队的五位实战型专家,从技术实践到业务优化 SeaTunnel 和 Apache Kyuubi 两大新锐社区携手,精心筹备,为企业大数据开发者、开源技术爱好者带来一场技术盛宴。 & PMC 演讲主题:如何给 Apache SeaTunnel 贡献自定义插件 演讲概要:介绍如何从0到1地给 Apache SeaTunnel 贡献自定义插件,包括环境构建,代码编写,提交和 Review ,如何基于Apache SeaTunnel 打造特征数据平台产品,提升开发效率。 李心恺:DSS 一站式开发平台集成Apache Kyuubi 作为 SQL任务计算中间件的相关实践 Apache SeaTunnel  & Apache Kyuubi 2022 联合 Meetup,见证中国大数据崛起

    78110编辑于 2022-03-14
  • 来自专栏Tyrant Lucifer

    我与Apache SeaTunnel的不二情缘

    关于我 我是tyrantlucifer,目前是Apache SeaTunnel社区的PPMC & Committer,在一家不知名公司任职大数据开发工程师,工作方向主要聚焦于数据集成领域的探索和实践,平时也会用诸如 Spark、Flink这样的分布式计算引擎做一些业务数据处理的工作,我是一名纯粹的开源爱好者,喜好用爱发电,热爱写代码,今天很高兴能够再次受到社区邀请,在这里讲述我与Apache SeaTunnel的故事 参与SeaTunnel贡献 在我接触完WaterDrop的一两个月后,WaterDrop成功进入到Apache孵化器并改名为SeaTunnel,当时的我第一时间就萌生了想为SeaTunnel贡献的想法, 社区带给我的影响 在逐渐参与到深层次的Apache SeaTunnel的贡献过程中,我的角色从User,到一个Contributor,转变到一个Owner,角色的转换代表着身上所承担的责任和义务的转换, 尾篇 如果在Apache SeaTunnel使用过程中遇到问题或者咨询贡献相关事宜,有以下几种方式联系到我: Github:https://github.com/tyrantlucifer E-mail

    66620编辑于 2023-03-09
  • 来自专栏SmartSi

    Apache SeaTunnel 分布式数据集成平台

    SeaTunnel 是一个非常好用的、超高性能的、分布式数据集成平台,架构于 Apache Spark 和 Apache Flink 之上,实现海量数据的实时同步与转换。 2021 年 12 月,SeaTunnel 正式通过世界顶级开源组织 Apache 软件基金会的投票决议,以全票通过的优秀表现正式成为 Apache 孵化器项目,成为 Apache 基金会中第一个诞生自中国的数据集成平台项目 特性 数据集成平台要围绕解决海量数据同步这一目标进行,核心理念是保持海量数据能快速同步的同时还能保持数据的一致性,具体到 Apache SeaTunnel 来说,Apache SeaTunnel 具有以下核心特性 在架构设计上,Apache SeaTunnel 参考了 Presto 的 SPI 化思想,有很好的插件化体系设计。 在技术选型时,Apache SeaTunnel 主要考虑技术成熟度和社区活跃性。 腾讯云:将业务服务的各种日志收集到 Apache Kafka 中,通过 Seatunnel 消费和提取 Apache Kafka 中的部分数据,然后存储到 Clickhouse 中。

    5.2K31编辑于 2022-04-01
  • 来自专栏Apache SeaTunnel

    Apache SeaTunnel MySQL CDC 支持按时间启动吗?

    MySQLCDC连接器会在启动阶段自动完成以下工作:根据指定时间戳定位对应的binlog文件与偏移量从该binlog位置开始读取变更事件自动跳过所有早于该时间点的历史事件通过引入“时间”这一更符合业务语义的维度,SeaTunnel 使用注意事项版本要求:需要SeaTunnel2.3.12或更高版本时间戳格式:必须使用Unix时间戳,单位为毫秒binlog可用性:确保指定时间点对应的binlog文件仍然可用时区考虑:时间戳基于UTC

    7910编辑于 2026-01-22
  • 来自专栏DataFunTalk

    陈胡:Apache SeaTunnel实现非CDC数据抽取实践

    SeaTunnel是一个分布式、高性能、易扩展、易使用、用于海量数据(支持实时流式和离线批处理)同步和转化的数据集成平台,架构于Apache Spark和Apache Flink之上。 上图所示内容引用了Apache SeaTunnel官网中的介绍。 Apache SeaTunnel环境依赖 SeaTunnel1.X支持Spark计算引擎,SeaTunnel2.X目前支持Spark/Flink两种计算引擎,在笔者的实际项目中使用的是SeaTunnel1 Apache SeaTunnel用户使用情况 目前有很多公司都在使用SeaTunnel,其中不乏大型公司,例如:中国移动、腾讯云、今日头条,还有笔者所在的中电科。 更加重要的是,SeaTunnel是首个进入Apache孵化的国人开源数据集成平台。 2.

    3K20编辑于 2022-05-19
  • 来自专栏开源心路

    seatunnel 架构

    main/HOCON.md 版本 1.x 支持spark 主要开发语言scala 主要构建工具sbt 2.x 支持spark 支持flink 开发java 主要构建maven 竞品 架构与工作流程 Apache 在架构设计上,Apache SeaTunnel 参考了 Presto 的 SPI 化思想,有很好的插件化体系设计。 在技术选型时,Apache SeaTunnel 主要考虑技术成熟度和社区活跃性。 Spark、Flink 都是非常优秀并且流行的大数据计算框架,所以 1.x 版本选了 Spark,2.x 版本将架构设计的更具扩展性,用户可以选择 Spark 或 Flink 集群来做 Apache SeaTunnel 的计算层,当然架构扩展性的考虑也是为以后支持更多引擎准备,说不定已经有某个更先进的计算引擎在路上,也说不定 Apache SeaTunnel 社区自己会实现一个为数据同步量身打造的引擎。 如下图是 Apache SeaTunnel 的整个工作流程,数据处理流水线由 Source、Sink 以及多个 Transform 构成,以满足多种数据处理需求: 如果用户习惯了 SQL,也可以直接使用

    1K30编辑于 2023-06-30
  • 来自专栏Apache SeaTunnel

    一文掌握 Apache SeaTunnel 构建系统与分发基础架构

    有关运行时插件加载机制的信息,请参阅插件管理与发现(https://deepwiki.com/apache/seatunnel/4.1-plugin-management-and-discovery)。 位于seatunnel - dist/src/main/assembly/assembly - bin - ci.xml 144 - 161(https://github.com/apache/seatunnel ,而位于seatunnel - dist/src/main/assembly/assembly - bin.xml 204 - 216(https://github.com/apache/seatunnel 连接器依赖管理在seatunnel - dist/pom.xml 162 - 205(https://github.com/apache/seatunnel/blob/02c7eb31/seatunnel 位于seatunnel - dist/src/main/docker/Dockerfile 1 - 18(https://github.com/apache/seatunnel/blob/02c7eb31

    29910编辑于 2025-09-25
  • 来自专栏大数据成神之路

    对不起,我活在Apache SeaTunnel的时代!

    SeaTunnel正式通过世界顶级开源组织Apache软件基金会的投票决议,以全票通过的优秀表现正式成为Apache孵化器项目! 图来源于Apache基金会邮件列表 根据Apache官方网站显示:针对SeaTunnel进入Apache的投票全部持赞同意见,无弃权票和反对票,投票顺利通过。 Apache SeaTunnel是中国开发者主导的项目,也是Apache基金会中第一个诞生自中国的数据集成平台项目。 同样,Seatunnel是一个非常易用,高性能、支持实时流式和离线批处理的海量数据处理产品,架构于Apache Spark和Apache Flink之上。 一些相关网站如下: 问题&建议 https://github.com/apache/incubator-seatunnel/issues 贡献代码 https://github.com/apache/incubator-seatunnel

    3.1K10编辑于 2022-01-20
  • 来自专栏Apache SeaTunnel

    Apache SeaTunnel 支持 Metalake 开发了!避免任务配置敏感信息暴露

    今年的开源之夏活动已接近尾声,Apache SeaTunnel 社区的开发者们在经过漫长的开发过程也都收获了自己的成果。 项目名称Apache SeaTunnel支持metalake开发在2025年开源之夏活动中,我参与了Apache SeaTunnel项目的开发,目标是解决任务配置中敏感信息暴露的问题。 在项目的实现过程中,我也考虑到系统的扩展性,因此我设计了一个插件化接口,使得系统不仅可以与Apache Gravitino集成,还能支持其他数据目录服务如UnityCatalog或DataHub。 同时,为了更好地了解同学们在参与开源之夏项目中的开发心得和感受,Apache SeaTunnel 对同学们进行了简短的采访,以下为采访实录:Q1:在众多项目中,为什么选择参与SeaTunnel的项目? A: 首先因为SeaTunnel项目属于Apache社区,Apache社区一直以来都有很高的声誉,参与这样的项目对我来说是一次宝贵的机会。

    18110编辑于 2025-11-05
  • 来自专栏实时流式计算

    SeaTunnel毕业!首个国人主导的数据集成项目成为Apache顶级项目

    Apache SeaTunnel 原名 Waterdrop,在 2021 年 10 月更名为 SeaTunnel 并申请加入 Apache孵化器。 2023 年 5 月 17 日,Apache 董事会通过 Apache SeaTunnel 毕业决议,结束了为期 18 个月的孵化,正式确定 Apache SeaTunnel 成为 Apache 顶级项目 Apache 官方博客发布了 Apache SeaTunnel 毕业的消息: 图1:Apache 官网截图 关于 Apache SeaTunnel Apache SeaTunnel 是新一代高性能、分布式 十八个月之后,Apache SeaTunnel 顺利毕业成为 ASF 顶级项目,我的期许是:Apache SeaTunnel【启航星辰大海】! SeaTunnel SeaTunnel 官网: https://seatunnel.apache.org/ 下载地址:https://seatunnel.apache.org/download GitHub

    1.2K20编辑于 2023-08-09
  • 来自专栏Apache SeaTunnel

    Apache SeaTunnel 2 月动态:过年也没闲着,社区都在忙些什么?

    以下是近期TopPR的详细盘点与分析:1.新连接器与生态扩展社区正在不断扩展SeaTunnel的数据集成边界,不仅关注传统的数据库,也开始接入SaaS和云原生服务。 3.Zeta核心引擎稳定性作为SeaTunnel的自研引擎,Zeta的稳定性是重中之重。

    8910编辑于 2026-03-05
  • 来自专栏Apache SeaTunnel

    Apache SeaTunnel 2.3.13 版本前瞻:核心引擎变化和 AI ETL 趋势值得关注

    结合Markdown解析能力,SeaTunnel现在可以直接构建从“非结构化文档”到“向量数据库”的完整RAG(检索增强生成)数据管道。 这里可以预览生成的向量}}源码导读Markdown解析核心:MarkdownReadStrategy.java该类利用flexmark-java库实现了对MarkdownAST的遍历,将非结构化文本转化为SeaTunnel

    1900编辑于 2026-03-12
  • 来自专栏安徽开发者圈

    SeaTunnel毕业!首个国人主导的数据集成项目成为Apache顶级项目

    Apache SeaTunnel 原名 Waterdrop,在 2021 年 10 月更名为 SeaTunnel 并申请加入 Apache孵化器。 2023 年 5 月 17 日,Apache 董事会通过 Apache SeaTunnel 毕业决议,结束了为期 18 个月的孵化,正式确定 Apache SeaTunnel 成为 Apache 顶级项目 Apache 官方博客发布了 Apache SeaTunnel 毕业的消息: 图1:Apache 官网截图 关于 Apache SeaTunnel Apache SeaTunnel 是新一代高性能、分布式 十八个月之后,Apache SeaTunnel 顺利毕业成为 ASF 顶级项目,我的期许是:Apache SeaTunnel【启航星辰大海】! SeaTunnel SeaTunnel 官网: https://seatunnel.apache.org/ 下载地址:https://seatunnel.apache.org/download GitHub

    52710编辑于 2025-05-23
  • 来自专栏Apache SeaTunnel

    结项报告完整版:Apache SeaTunnel 支持 Flink 引擎 Schema Evolution 功能

    的实现是直接标记失败,之后从检查点恢复,目前我采用的是标记失败的策略,考虑的点是,主动回滚开发相当麻烦,可能还需要flinkck进行适配,直接让schema变更失败时抛出异常,让现有的重试机制处理就行,而且也观察到SeaTunnel

    21210编辑于 2025-11-12
  • 来自专栏Apache SeaTunnel

    Apache SeaTunnel 如何将 CDC 数据流转换为 Append-Only 模式?

    RowKindExtractor 是 Apache SeaTunnel 的一个转换插件,它能将 CDC 数据流转为 Append-Only 模式,并提取原始 RowKind 信息为新字段。本文将介绍 RowKindExtractor 的核心功能,其在 CDC 数据同步场景下的使用方法,以及配置选项、注意事项及多种应用示例。

    16210编辑于 2025-11-19
  • 来自专栏Apache SeaTunnel

    Apache SeaTunnel 轻松实现数据到 S3 Tables 的快速集成

    正因如此,Apache Iceberg作为一种先进的开源数据湖格式,应运而生并迅速崛起。 本文将介绍如何使用 Apache SeaTunnel ,一个高性能、分布式的大规模数据集成工具,通过兼容 Iceberg rest catalog 的实现对接 S3 Tables 实现实时和批量数据集成 架构及核心组件通过SeaTunnel 支持 Iceberg REST Catalog 对接,SeaTunnel 原生实现对 Apache Iceberg REST Catalog 的接入能力。 数据),都先统一接入 SeaTunnel,通过 SeaTunnel Sink 能力实时或批量写入 S3 Table Bucket。 查看数据图片总结展望随着Apache SeaTunnel对Iceberg和AWS S3 Tables的深度集成,企业数据湖架构将迎来更广阔的应用前景。

    28810编辑于 2025-10-23
  • 来自专栏数据库干货铺

    数据同步集成工具SeaTunnel

    SeaTunnel简介 SeaTunnelApache软件基金会孵化的数据集成平台,用于数据的提取(Extract)、加载(Load)和简单转换(Transform)。 的官网地址为 https://seatunnel.apache.org/ 下载可以进入 https://seatunnel.apache.org/download 选择需要的版本进行下载。 2.3 开始后端部署 解压下载的二进制安装包 # 进入目录seatunnel(提前创建) cd seatunnel # 解压 tar -zxvf apache-seatunnel-2.3.8-bin.tar.gz /apache-seatunnel-web-1.0.2-bin/conf cp /usr/local/seatunnel/apache-seatunnel-2.3.8/config/hazelcast-client.yaml Load connectors from /usr/local/seatunnel/apache-seatunnel-web-1.0.2-bin /usr/local/seatunnel/apache-seatunnel-web

    1.4K10编辑于 2024-12-19
  • 来自专栏Linyb极客之路

    搞不定 Docker 部署 SeaTunnel?这些坑与解法你得知道!

    : 172.16.0.3 worker2: image: apache/seatunnel container_name: seatunnel_worker_2 environment : - subnet: 172.16.0.0/24三、Docker 部署 Seatunnel 的常见 “坑” 及解决方案坑一:镜像下载的拦路虎问题描述:当尝试下载 apache/seatunnel 镜像时,默认的完整路径 docker.io/apache/seatunnel 在国内无法访问,导致镜像下载失败,部署进程被迫中断。 解决方案:1、临时方案 - 快捷绕道:将镜像名称临时修改为 docker.1ms.run/apache/seatunnel,即可快速解决燃眉之急,继续推进部署工作。 四、总结SeaTunnel 作为国人主导的 Apache 开源项目,其文档和代码相对易于理解。

    93410编辑于 2025-08-26
领券